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摘要 : [目的 /意义 ] 面向 主流 新 闻 媒 体 人 民 日 报 语 料 展 开 研 究 ， 旨 在 为 文本 自动 摘要 研究 
提供 思路 和 实践 支撑 ， 进 而 应 用 到 新 闻 等 相关 文本 信息 处 理 中 ， 为 知识 聚合 服务 和 信息 获取 
途径 研究 做 出 贡献 。[ 方 法 /过 程 ] 以 新 时 代 人 民 日 报 语 料 NEPD ¥ 49 2015 #1 AL 2015 年 
6 月 和 2016 年 1 月 的 人 民 日 报 分 词语 料 作 为 实验 语 料 ， 基 于 TF-IDF、Textrank 等 抽取 式 自 
动 摘 要 算法 ， 以 及 基于 指针 生成 网 络 的 生成 式 自动 摘要 模型 展开 研究 ， 并 对 摘要 结果 进行 分 


析 评 价 。 


[ 结果 / 结论 ] 实验 设计 面向 人 民 日 报 语 料 的 新 闻 抽 取 式 自动 摘要 算法 ， 构 建 面 向 人 


民 日 报 语 料 的 新 闻 生 成 式 自动 摘要 指针 生成 网 络 模型 ， 并 通过 Rouge 指标 (包括 Rouge-1、 
Rouge-2 和 Rouge-L 3 种 指标 ) 对 实验 结果 进行 评测 ,为 人 民 ,日 报 分 词语 料 的 应 用 提供 具体 思路 ， 
并 对 新 闻 自动 摘要 系统 研究 提供 语 料 支持 和 实践 支撑 。 

关键 词 : ARAR ”抽取 式 自动 摘要 ”生成 式 自动 摘要 NEP 指针 生成 网 络 


分 类 号 : G255.1 


引用 格式 : RR, ERK, RK. 面向 人 民 日 报 语 料 的 新 闻 自 动 摘要 生成 [J/OL]. 知识 管理 论坛 ， 
2022, 7(4): 452-464[ 引用 日 期 ]. http://www.kmf.ac.cn/p/307/. 


@ 引 言 

网 络 信息 的 爆炸 式 增 长 在 使 人 们 获取 信息 
更 加 便利 的 同时 ， 也 带 来 了 信息 利用 效率 低 、 
阅读 成 本 过 高 等 问题 ， 而 自动 摘要 技术 通过 对 
信息 的 压缩 和 精炼 ， 为 提高 知识 获取 效率 提供 
了 辅助 手段 ""， 该 技术 的 产生 和 发 展 使 解决 上 
述 问 题 成 为 可 能 。 目 前 ， 自 动 摘 要 的 主要 方式 
有 抽取 式 和 生成 式 两 种 ， 抽 取 式 自动 摘要 起 步 


较 早 ， 经 过 许多 学 者 多 年 研究 ， 该 技术 已 较为 
成 熟 ， 而 随 着 机 带 学 习 引 入 到 自动 摘要 领域 ， 
生成 式 自动 摘要 再 一 次 迎 来 了 发 展 的 可 能 。 

新 闻 是 记录 社会 问题 、 传 播 时 代 信 息 、 获 
取 时 事 热点 的 重要 途径 ， 而 《人 民 日 报 》 是 中 
国共 产 党 中 央 委员 会 机 关 报 ， 是 国家 与 人 民 沟 
通 的 主要 媒介 ， 也 是 国内 外 文化 交流 的 桥梁 ， 
因此 ， 人 民 日 报 语 料 的 研究 具有 重要 意义 。 本 
文 实验 语 料 来 自 新 时 代 人 民 日 报 语料库 (New 
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Era People’ s Daily Segmented Corpus, 简称 
NEPD ) 中，NEPD 中 收录 的 《人 民 日 报 》 文 章 
经 过 人 工分 词 和 校对 ， 是 具有 良好 可 用 性 的 精 
语 料 外。 通过 NEPD 中 的 语 料 可 快速 便捷 地 计 
算 词语 及 其 频次 , 进而 进行 后 续 的 数据 预 处 理 ， 
完成 相应 的 文本 处理 任务 。 

笔者 结合 人 们 新 闻 浏 览 趋 势 的 变化 ， 针 对 
大 量 新 闻 文 本 需要 精炼 的 特征 ， 面 向 人 民 日 报 
语 料 ， 实 现 抽 取 式 新 闻 自 动 摘要 算法 和 生成 式 
自动 摘要 模型 的 构建 , 并 对 摘要 结果 进行 评价 ， 
进而 提高 新 闻 信息 使 用 效率 ， 节 省 用 户 阅读 成 
本 ， 为 文本 自动 摘要 技术 及 其 评价 方法 提供 思 
路 。 
@ 相 关 研 究 

早期 ， 莫 燕 外 和 王 永 成 外 介绍 了 自动 文献 
摘要 和 自动 提取 知识 的 思想 和 算法 。 之 后 ， 王 
永 成 和 许 慧 敏 外、 王 知 津 分 别提 出 并 设计 了 
OA 中 文 文献 自动 摘要 系统 和 基于 句子 选择 的 自 
动 文本 摘要 系统 ， 并 对 中 文 文献 自动 摘要 的 历 
史 、 发 展 和 意义 进行 了 概述 。 史 磊 和 王 永 成 名 
则 对 英文 文献 自动 摘要 系统 进行 了 研究 。 

在 前 人 研究 的 基础 上 ， 文 本 自动 摘要 研究 
得 以 快速 发 展 ， 各 类 算法 推陈出新 。 熊 娇 等 外、 
张 徐 丹 和 胡 学 钢 " 、 刘 星 含 和 霍 华 5、 纪 文 全 
AEDA pepe eS) x ae A A Zp I A E 
模型 、 向 量 空间 模型 、 互 信息 、 连 续 LexRank 
算法 、 依 存 句法 分 析 图 模型 对 文本 进行 自动 摘 
要 处 理 。 王 帅 等 局 采用 基于 图 模型 和 循环 神经 
网 络 模型 两 阶段 的 长 文本 自动 摘要 方法 ， 在 大 
规模 金融 长 文本 数据 上 进行 了 摘要 生成 实验 ; 
RBG) 提高 与 标题 相似 的 特征 词 的 词 频 ， 进 
而 计算 词 频 和 矩阵 和 句子 相似 度 ， 得 到 了 词句 协 
同 的 自动 摘要 提取 算法 ;陈晨 等 "应 用 词句 协 
同 排序 提出 了 基于 图 模型 的 自动 摘要 算法 ; T 
建立 等 中 采用 多 维度 词 租 入 模式， 基于 双 编 
码 器 融入 双 通 道 语 义 对 短文 本 进行 自动 摘要 任 
务 ; 汉 读 娟 等 O 同样 基于 双 编 码 需 网络 结 构 构 
建 了 CGAtten-GRU 模型 ， 并 在 大 规模 中 文 短文 


ChinaXiv 合 作 期 刊 
知识 管理 论坛 ，2022 (4) :452-464 
DOI: 10.13266/j.issn.2095-5472.2022.038 


本 摘要 中 取得 良好 的 效果 ; BREE OO 参考 图 结 
构 表 示 提 出 了 事件 网 络 表示 文本 中 的 事件 关系 ， 
进而 进行 文本 自动 摘要 ; RAGS OY HET 
TextRank 算法 ， 将 Doc2Vec 模型 和 KK-means 算 
法 融入 其 中 ， 优 化 了 主题 句 提取 生成 摘要 的 效 
果 ; 陈 海 华 等 局 将 引文 上 下 文 内 容 特征 与 支持 
向 量 机 ( support vector machine, SVM ) 模 型 融合 ， 
对 学 术 文 本 进行 自动 摘要 ; 黄 水 清 等 所 根据 计 
算 机 类 文献 设计 了 该 领域 自动 文本 摘要 系统 ; 
张 蛤 和 赵 玉 虹 的 则 针对 医学 文本 ， 对 文本 及 语 
义 关系 进行 规范 化 抽取 和 语义 图 的 构建 ， 以 实 
现 句 子 主题 归 类 , 进而 生成 摘要 ; Wea Be EP 
EF May ee ee OO 则 从 信息 检索 方面 人 手 ， 基 于 
用 户 查 询 扩 展 及 查询 文档 集合 辅助 生成 摘要 。 

在 这 些 算法 中 ,采用 主题 划分 、 多 特征 融 
合算 法 的 自动 摘要 研究 尤为 突出 。 张 哲 铭 等 中 
提出 了 结合 主题 感知 与 通信 代理 的 高 质量 长 文 
本 摘要 模型 ,能够 生成 主题 突出 的 摘要 结果 ; 
陈 燕 敏 等 所 提出 了 一 种 融合 主题 与 内 容 的 自动 
摘要 方法 ， 并 通过 指 代 消解 获得 具有 民 好 的 连 
贯 性 和 流畅 性 的 自动 摘要 结果 ; 罗芳 等 "改进 
了 图 模型 方法 ， 基 于 隐 含 狄 利克 雷 分 布 (latent 
Dirichlet allocation, LDA ) 主题 模型 挖掘 出 的 主 
题 语 义 信 息 ， 将 主题 特征 、 统 计 特征 和 和 句 间 相 
似 度 等 多 维度 对 文本 进行 度量 和 抽取 ， 最 终 达 
到 深层 主题 语义 挖 所 利用 的 目的 ， 实 现 自动 摘 
要 ; HER O 针对 大 规模 多 文本 摘要 ， 构 建 了 
基于 聚 类 与 语义 相似 分 析 的 MapReduce 自动 摘 
要 架构 ， 在 时 间 性 能 、 压 缩 效 果 和 摘要 质量 上 
都 有 一 定 的 提升 。 但 以 上 方法 和 模型 主要 集中 
于 抽取 式 自 动 摘 要 的 研究 ， 而 对 于 生成 式 自动 
摘要 仍 有 较 大 的 研究 空间 。 

随 着 大 数据 和 人 工 智 能 技术 的 迅猛 发 展 ， 
传统 自动 文摘 研究 正 朝 着 从 抽取 式 摘要 到 生成 
式 摘 要 的 方向 演化 ， 从 而 达到 生成 更 高 质量 的 自 
然 流 畅 的 文摘 的 目的 。 近 年 来 ， 深 度 学 习 技 术 逐 
渐 被 应 用 于 生成 式 摘要 研究 中 。 吴 世 奢 等 上 SE 
¥ ay YER 1. Pointer 机 制 和 Coverage 机 制 的 
Sequence-to-Sequence 模型 引入 语义 对 齐 的 神经 
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网 络 ， 实 现 生成 式 自动 摘要 模型 的 构建 ; 方 旭 
等 中 提出 了 一 种 结合 核心 词 修正 的 长 短期 记忆 
网 络 (long short-term memory, LSTM ) 算法 自 
动 生成 中 文 短文 本 摘要 ; EIDE IB FSBO 
进 了 PageRank 算法 ， 并 采用 句子 回 量 化 、 分 
类 需 分 类 、 句 群 划 分 和 句子 重组 混合 机 需 学 习 
模型 进行 多 文档 自动 摘要 研究 ; 谭 金 源 等 中 和 
张 克 君 等 5 融合 多 个 深度 学 习 模型 分 别提 出 了 
Bi-MulRnn+ 和 BERT- 指针 生成 网 络 BERT-PGN 
生成 式 自动 摘要 模型 ， 有 效 改 善 了 生成 式 摘要 
的 准确 性 和 流畅 度 ; FEBRER HAMR 
国文 趾 也 都 进行 了 基于 深度 学 习 的 中 文生 成 式 
自动 摘要 模型 的 研究 与 实现 。 

逐渐 加 快 的 生活 节奏 不 断 改变 着 人 们 的 
阅读 习惯 ， 人 们 从 纸 质 书籍 、 报 刊 转 向 电子 化 
阅读 ， 阅 读 的 新 闻 也 逐渐 转 为 短文 本 ， 因 此 ， 
新 闻 媒 体 以 及 读者 对 于 新 闻 摘 要 自动 化 的 需求 
也 随 之 增 大 。 官 礼 和 mY 分析 了 中 文 网 络 新 闻 
自动 摘要 的 思路 和 流程 ， 并 通过 实验 进行 了 分 
析 佐 证 ; 韩 永峰 等 中 探讨 了 自动 摘要 中 信息 
元 余 的 问题 ， 并 提出 了 基于 事件 抽取 的 网 络 新 
闻 多 文档 自动 摘要 的 改进 方法 ; 沈 洲 等 OO) 
立 了 新 闻 文 献 主题 提取 规则 库 ， 构 建 了 面向 
新 闻 文献 基于 规则 的 自动 摘要 系统 ; FE a BE 
中 提出 的 自动 摘要 算法 是 基于 互信 息 对 文本 
词句 语义 特征 的 计算 结果 ， 并 据 此 进行 主题 划 
分 ， 抽 取出 关键 句 生 成 最 终 的 文本 摘要 ; 王 凯 
祥和 任 明 外 为 满足 用 户 查 询 的 信息 需求 ， 设 
计 了 基于 查询 的 新 闻 自 动 摘要 算法 ， 还 与 TF- 
IDF, TextRank, LDA 等 6 种 方法 进行 了 对 比 
实验 ; 黄 小 江 等 外 基于 协同 图 排序 模型 自动 
生成 了 新 闻 话 题 的 对 比 摘要 ， 具 有 很 强 的 新 疾 
PE; 柯 修 和 王 惠 临 站 则 融合 多 种 算法 ， 包 括 
指 代 消解 、 文 本 外 部 特征 和 图 排序 方法 ， 实 现 
了 汉语 、 莫 语 、 备 加 拉 语 3 个 语种 的 多 文档 新 
闻 自 动 摘 要 ; 叶 雷 等 外 同样 采用 图 排序 方法 ， 
提出 了 多 特征 融合 的 汉 越 双语 新 闻 摘 要 方法 ， 
能 够 自动 获取 同一 事件 的 汉 越 双语 新 闻 摘 要 。 
除 新 闻 外 ， 如 微 博 、 论 坛 等 用 户 自主 生成 内 容 
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中 的 信息 也 拥有 巨大 的 研究 价值 ， 而 自动 摘要 
是 获取 这 类 重要 信息 的 一 种 手段 ,但 这 些 短文 
本 高 匈 余 、 高 噪声 等 特征 对 于 自动 摘要 造成 较 
大 的 影响 中， 学 者 们 “也 在 为 解决 这 一 问 
RAVE AES Ho 

通过 对 上 述 文献 的 梳理 可 以 发 现 ， 从 基于 
规则 、 基 于 统计 到 后 来 的 深度 学 习 ， 从 普通 文 
本 到 动态 视频 ， 自 动 摘要 技术 的 研究 正 随 着 技 
术 的 进步 和 用 户 的 需求 不 断 更 迭 发 展 着 。 而 新 
闻 自 动 摘 要 一 直 具 有 重要 意义 ， 其 能 够 在 很 大 
程度 上 满足 人 们 快 节 奏 生 活 中 的 新 闻 获 取 。 但 
目前 新 闻 自 动 摘 要 的 应 用 型 研究 主要 集中 在 新 
闻 的 抽取 式 自动 摘要 上 ， 而 对 于 生成 式 自动 摘 
要 尚未 有 领域 性 、 准 确 性 较 强 的 模型 和 系统 。 
因此 ， 笔 者 面向 人 民 日 报 语 料 展开 自动 摘要 的 
研究 ， 通 过 传统 算法 和 深度 学 习 算法 完成 自动 
摘要 任务 ， 旨 在 根据 当前 主流 新 闻 媒 体 的 文本 
特征 构建 自动 摘要 模型 ,解决 用 户 阅 读 长 文本 
新 闻 耗 时 长 、 信 息 利用 率 低 的 问题 ， 同 时 也 为 
新 闻 媒 体 的 知识 聚合 服务 提供 帮助 ， 为 新 闻 传 
播 、 文 化 传承 提供 新 思路 。 


合算 法 模型 介绍 

A 然 语 言 处 H (natural language 
processing，NLP ) 作为 一 个 传统 研究 领域 ， 自 
其 产生 始终 热度 不 减 ， 其 中 缘由 不 只 是 新 技术 
的 诞生 和 引入 ， 也 因 NLP 有 “最 困难 的 人 工 智 
能 子 领域 ”之 名 。 其 中 的 自动 摘要 任务 也 是 研 
究 者 们 不 断 研究 、 突 破 的 主要 难点 之 一 ， 特 别 
是 在 快速 阅读 成 为 人 们 生活 中 非常 重要 的 阅读 
方式 的 前 担 下。 目前， 自动 摘要 方法 按 生成 方 
式 主要 分 为 抽取 式 自动 摘要 和 生成 式 自动 摘要 ， 
抽取 式 自动 摘要 主要 应 用 关键 词句 排序 的 思想 ， 
而 生成 式 自动 摘要 更 多 是 基于 深度 学 习 模 型 来 
完成 。 在 本 文 的 实验 中 ,抽取 式 自动 摘要 主要 
运用 了 关键 词 确定 句子 权重 和 TextRank 等 传统 
算法 的 思想 ， 生 成 式 自动 摘要 则 参考 了 基于 指 
针 生 成 网 络 构建 的 面向 中 文 的 Text-Summarizer- 
Pytorh-Chinese 模型 "| 及 其 思路 。 
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3.1 抽取 式 自动 摘要 

本 人 研究 中 的 抽取 式 自动 摘要 主要 采用 的 是 
按 词 频 和 艇 确定 关键 词 ， 再 通过 关键 词 对 所 在 
句 打 分， 分 数 排 序 确定 最 终生 成 摘要 的 句子 。 
这 种 方法 源 自 IBM 公司 H. P. Luhn 的 一 篇 文章 


50 ， 


The Automatic Creation of Literature Abstracts 
他 提出 用 簇 (cluster) 表示 关键 词 的 聚 类 结果 ， 
这 里 的 簇 即 包含 多 个 关键 词 的 句子 片段 ， 如 图 1 
所 示 : 


句子 


ÎR (FHKE) 


广大 人 民 群 众 有 了 更 多 获得 感 | …… ) 
1 2*3r4567 8* 


EK 
+a 


1 关键 词 簇 聚 类 示意 图 


续 权 重 的 计算 公式 号 如下， 

,而 BERENE 

a Ae 公式 (1) 
Seb, KRIT Be eh ta, Oral AR 


量 ， 以 本 研究 中 的 部 分 人 民 日 报 语 料 为 例 : 
“FEL EAE RAED, TZ 
PS LPM, 广大 人 民 群 众 友 了 更 多 获得 感 ”， 
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分 词 后 语 料 实例 为 : 

“ZEIT /全国 /各 族 / 人 人民/ 共同/ 努力 / 
/ /二 二 五 A/ (R/R KRA /广大 /人 
民 / 群 众 / 序 /了 /更 /多 /多 得 感 ”， 

设 “ ‘十 二 五 ”规划 圆满 收 官 ” 为 一 簇 ， 
簇 长 为 6，“ 十 二 五 ”“ 规 划 ”“ 收 官 ” 为 关键 
词 ,，“ 广 大 人 民 群 众 有 了 更 多 获得 感 ”为 男 一 簇 ， 
PRR 8, 关键 词 为 “人 民 ”“ 群 众 "”“ 获 得 感 ”， 
则 两 徐 权 重 分 别 为 346=1.5 和 328=1.125。 按 权 
重 对 文本 包含 的 句子 进行 排序 ， 确 定 抽取 浆 值 
(本 文 设 定 的 阔 值 为 10， 即 抽出 重要 性 最 高 的 
前 10 SF) ， 将 这 10 个 句子 整合 ， 即 为 该 
文本 的 自动 摘要 。 类 似 TextRank 算法 ， 该 算法 
源 于 PageRank 算法 ,相当 于 将 网 页 替换 为 句子 ， 
通过 句子 相似 度 矩 阵 以 及 设 定 的 阔 值 来 获得 得 
分 较 高 的 句子 作为 自动 摘要 结果 ， 这 是 一 种 无 
监督 的 抽取 式 自 动 摘要 。 

3.2 生成 式 自动 摘要 

指针 生成 网 络 (pointer-generator network ) 
的 自动 摘要 任务 原理 见 图 2。 该 模型 能 够 通过 自 
注意 力 机 制 集中 于 文本 中 的 重要 词汇 ， 并 由 此 
生成 新 词汇 。 同 时 ， 它 不 是 通过 复制 原 词 来 生 
成 摘要 ， 而 是 权衡 词 表 中 词汇 的 概率 、 词 汇 分 
布 以 及 注意 力 分 布 来 确定 候选 词 的 权重 并 获得 
最 终 分 布 情 况 。 


-m 
“a 
2 


HOI MH 
一 人 一 


而 只 入 


HHHH 


HH 


<START> German) 


原 冶 语 料 


部 分 摘要 


2 指针 生成 网 络 自动 摘要 原理 图 示 
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目前 ， 面 向 中 文 的 基于 指针 生成 网 络 自 
动 摘 要 的 模型 较 少 ， 因 此 ， 笔 者 参考 Text- 
Summarizer-Pytorch-Chinese 的 构建 思路 ， 将 
预 训 练 语 料 调整 为 NEPD 语 料 ， 词 表 也 针对 
NEPD 语 料 进行 了 更 新 ， 之 后 再 进行 预 训练 和 模 
型 构建 。 


O 面向 人 民 日 报 语 料 的 新 闻 自 动 摘 
要 生成 实验 

“《 人 民 日 报 》 是 一 张 权威 、 en 
日 报 ， 凭 借 其 采编 力量 对 新 闻 事件 做 出 反应 ， 报 


ChinaXiv 合 作 期 刊 


道 国内 外 重大 事件 ”外 。 作 为 耳目 与 喉舌 、 桥 梁 和 
纽带 的 主流 媒体 ， 其 文本 信息 价值 不 言 而 喻 ， 人 
民 日 报 语 料 一 直 以 来 也 是 研究 者 们 的 重要 数据 来 
源 ， 其 中 ， 北 京 大 学 计算 语言 学 研究 所 构建 的 人 
民 日 报 语料库 Ot 是 我 国 第 一 个 大 型 的 现代 汉语 标 
注 语料库 ， 之 后 ， 南 京 农业 大 学 人 文 与 社会 计算 
研究 中 心 在 2019 年 对 2015 年 至 2018 年 《人 民 日 报 》 
发 表 的 文章 进行 加 工 处 理 ， 构 建 了 新 时 代 人 民 日 
(NEPD ) 外 。 本 研究 以 NEPD 中 2015 年 

、2015 年 6 月 和 2016 年 1 月 3 个 月 的 语 料 为 
N i ， 原 始 语 料 如 图 3 所 示 : 


Ta WE 

文件 (月 ”编辑 (E) ERO EEV) 帮助 (H) 

/政协 /学 行 /新 年 /茶话会 / ~ 
Ey WRN SS RAORAO VEUEN Be / 张 /高 丽 /出 席 / 俞 / 正 声 /主持 / m 
TREA (ERBER EEEE / 

i 人 (a eee “a TEL BAERS. AVALA FEARS. AEEA 
ve 
whee UEZ A 

nide /12/A/31/0/8/ /记者 / 吴 / 晶 晶 /、/ 孙 / 铁 翔 /) /中 国 / 人 民 / 政 治 / 协 商 /会 议 /全 国 / 委 员 会 /12/ 月 /31/ 日 /上 
eae Ete ie Ake TA AEEA S/S. EU AK SAB /RE 

wy rage i al 
tig A y i; Nia [Ba SBS a/R ae E Y 
TA I TA ee 0 an / 

H 本题 
进 /党 /和 7 国家 / fy TRS RR St RRR 
FAVA E o oe DT, m T T A, Wf 
让 /我 们 / 理 加 / (eae, 来/ (ay ee Ve 目标/ E hs = Sey ae sae 
习 / 近 平 / 人 表 / 中 共 / 中 MRE HR Cr oe 民团 体 /， ng 
/全 国信 大/ 工作/ > 人 ea [ERINE ty i Ee /和 /公安 /干警 / 

，/ 向 / 香 糙 /特别 /行政 区 /同胞 /、/ 省 门 /特别 /行政 区 /上 同胞 /7 各 Bete ee ia M 寺 / 中 国 /现代 
AERIS RAL, ARIE BRB, 人 年 /好 /， 
WO a EE, 

A Ry/ 

Wri PEMD 做 检 全 
TA fA May RnR Re en /聚焦 /惩治 /形式 /主义 /、/ 官 僚 / 主 义 人 ee 
SSI XB a. [ES ERI A PRR AT /— ARR DF ARZA RENE 
一 (年 /来 / 人 / 步 / 稳 / 灿 /推进 /各 项 /改革 /，/ 中 央 / 全 面 /深化 /改革 /领导 /小 组 /确定 /的 /807 个 / 点 /改革 MES 
Legs, GEG Tae AEST 108 NE Re) 3 a oY | 
全 CET Ge IE cette 

些 / 成 绩 /，/ 是 / TARNE, /光荣 /属于 /大 家 /。/ 

JAREN (SB. UA Sk A ER EE BS / 7 
eT UG By OP TB aa GRE 
TE SD PUA REA ALE EAE 


4.1 数据 预 处 理 

根据 本 研究 需要 ， 笔 者 将 每 篇 新 闻 从 源 语 
料 中 分 割 出 来 ， 处 理 后 的 文本 见 图 4， 为 之 后 的 
摘要 抽取 和 生成 做 准备 。 经 过 数据 清洗 (同时 
清洗 了 未 生成 标准 摘要 的 数据 ) ， 获 得 2015 年 
1 月 新 闻 2 628 条 、2015 年 6 月 新 闻 916 条 
2016 年 1 月 新 闻 2 748 条 ， 共 计 6 292 条 数据 ， 
本 研究 将 以 上 述 数据 作为 研究 对 象 进行 自动 摘 
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图 3 NEPD 原始 语 料 截图 示例 


要 研究 。 
4.2 实验 环境 与 参数 设置 

本 实验 中 生成 式 自动 摘要 模型 训练 及 测 
试 时 采用 的 操作 系统 为 ubuntu 16.04， 内 存 为 
16GB DDR4， 显 存 为 4GB GDDRS5, CPU 为 
Intel(R) Core(TM) i5-4590 CPU @ 3.30GHz, 
GPU 型 号 为 NVIDIA Quadro K1200。 生 成 式 自 
动 摘 要 模型 参数 设置 如 表 1 所 示 。 
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加 站 向 人 民有 日 按 本 9 新 闻 白 动 和 要 生成 \ 分 天 后 新 闻 \201501\201501 标 要 0.txt - Notepad 


文件 (站 WAE 搜索 (S) 视图 (V) SSN) 语言 (|) 设置 () TRO) AM) 运行 (R) 插件 (P) em 2 


oFHe 2.8/4 Nh 2c) me) * s|\2R MRS BAoet/ 25088 


[E] ee tx a 


PEF AREEN EIE AE/K WL) a) = Ws A TEI / 
二 月 /三 /十 /一 /日 /，/ 全 国 / 政 协 / 在 /北京 /举行 /新 年 /茶话会 /。/ 国 
和 营 / 和 /国家 /领导 人 / 习 / 近 平 /、/ 李 / 克 强 /、/ 张 /德江 /、/ 会 / 正 声 /、/ 刘 / 云 山 /、/ 王 / 赎 山 /、/ 张 /高 丽 / 出 席 /茶话会 /并 /观看 /演出 /。/ 园 
新 华 社 /记者 / 〈/ 李 /学 仁 /) / 摄 / 国 
新 华 社 /北京 /12/ 月 /31/ 日 / 电 / RMB. SA) /中 国 /人 民 / 政 治 / 协 商 /会 议 / 全 国 /委员 会 /12/ 月 /31/ 日 /上 午 / 在 /全 国 /政协 /礼堂 /举行 /新 年 /茶话会 /。 
党 /和 /国家 /领导 人 / 习 / 近 平 /、/ 李 / 克 强 /、/ 张 /德江 /、/ 俞 / 正 声 /、 he / 王 /岐山 /、/ 张 /高 丽 / 等 同 /各 /民主 党 派 /中 央 /、 ee CTW Ett ANERE /中 央 /和 /国家 /机 关 / 有 关 / 方 面 /负责 
人 /以 及 /首都 /各 族 /各 界 /人 士 /代表 /欢聚 一 誉 /，/ 共 / 迎 /2015/ 年 /元 旦 ， 


中共/ 中央 /总 书记 /、/ 国 家 /主席 /、 eit /a 


持 /问题 / 导 间 /，/ 倾 听 7 人民/ 呼声/-。 


33 我 们 /的 /目标 / 越 /伟大 / TRIVS ede Ek ES TREEREN EIR / 股 / 绳 /去 /干事 /创业 /。 e 
= 让/ 我们 /更 加 /紧密 /地 /团结 /起 来 /; A Err E /向 /着 /更 加 / 送 燃 /的 /明天 /奋勇 前 进 /- 


O 习 / 近 平 /代表 /中 共 / 中 央 /、/ 国 务 院 


中 央 军 委 /，/ 向 /各 /民主 党 派 /、/ 工 商 联 /和 /无 党 派 / 人 士 /、/ 各 / TREE /向 / 金 国 /广大 /工人 /、/ 农 民 /、/ 知 识 分 子 /、/ 千 部 /和 /各 界 /人 士 /，/ 向 /人 民 / 解 放 军 /指战员 /、 
二 i w 7 台湾 /同胞 /和 /海外 /侨胞 /，/ 向 /关心 /和 /支持 /中 国 / 现 代 化 /建设 /的 /国际 /友人 /，/ 致 以 /节日 /的 /祝福 /，/ 祝 /大 家 /新 年 /好 / 


4 Ber teh. /在 /过 去 /的 /一 Ct /7 中共/ 中央/ 团结 /带领 /全 国 / 各 族 / 人 民 /，/ 坚 持 / 稳 中 求 进 /工作 /总 /基调 /， peace hte pe a oT ERE /战略 性 /、/ 长 远 性 /的 /重大 /问题 /，/ 


ie RV MK RR AS, 


推动 /社会 主义 /经 济 /建设 /、/ 政 治 / 建 /文化 /建设 /、/ 社 会 /建设 /、/ 生 态 /文明 /建设 /以 及 /国防 /和 /军队 /建设 /、/ 外 交 / 工 作 /取得 /重大 /进展 /- 
AEF i OAA eR, Sr A (EA EEREN, BRENU, ERE UMEREZ ARBAA: 7. / 国 
/、/"/ 苍 蝇 /"/ 一 起 / 打 /，/ 一 / 批 /腐败 /分 子 /被 / 绳 /之 /以 /党 纪 国法 /- 


x ER”. /® 
7 dt e NET T ee /中 央 / 全 面 /深化 /改革 /领导 /小 组 /确定 /的 /8o/ 个 /重点 /改革 /任务 /基本 /完成 /，/ 此 外 /中 央 /有 关 / 部 门 /还 /完成 /了 /108/ 个 /改革 /任务 /，/ 各 /方面 / 共 / 出 台 /370 
， a 


SERER ERA PRT, AE ARERR TAKAA. / 


is 这 i JES). 10B 
3 “ 习 / 近 平 /强调 /，/ 当 前 /，/ 时 /和 / 势 /总 体 / 有 利 /，/ 但 / 艰 和 险 /在 /增多 /- 


20 我们 /要 /全 面 /贯彻 /落实 /中 共 /十 八大 /和 /十 八 / 届 / 三 中 /、 ENEIT /以 /邓小平 理论 /、 


法 /治国 /、/ 全 面 , 


2 BIERE MR EAN r ea alah all /ma 


/: /积极 / = a “/ 战 
/中 : ne Sea MEA 
E - / 国 


29 ”人 民 / 政 协 /要 /深入 /进行 /调研 /视察 /、/ 协 商 /议政 /，/ 积 极 /开展 /民主 /监督 /，/ 讲 / 真 话 


让 三 个 代表 “重要 思想 /、/ 科 学 发 展 观 /为 /指导 /，/ 继 续 /推进 /全 面 /建成 /小 康 / 社 会 /、/ 全 面 /深化 /改革 /、/ 全 面 / 依 
/从 严 / 治 党 /，/ 突 出 /创新 /驱动 /，/ 强 化 /风险 / 防 控 /，/ 加 强 / 民 生 / 保 障 /， TEREE /十 二 五 /"/ 规 划 / 确 定 /的 /各 项 /目标 /任务 /。/ 国 


略 /，/ 人 /® 


£ ia 

26 BE EMAK : 措施 /- 

研习/ 近 平 /强调 /， ae eT /年 / 蜂 /，/ 我 们 / 隆 盖 / 居 视 /子叶 2 人民 /政治 /协商 /会 议 /成 立 /6s/ 周 年 /， /人 民 / 政 协 /发 挥 /作为 /协商 /民主 /重要 /渠道 /作用 /，/ 荐 力 /搭建 /协商 /平台 /、/ 创 新 /协商 /载体 /、/ 
增加 /协商 /密度 /，/ 聚 焦 /改革 /发 展 /稳定 /重大 /问题 /深入 /调查 /研究 /、/ 反 映 /社情 /民意 /、/ 开 展 / 民 主 /监督 /，/ 为 /推进 /改革 开放 /和 /社会 主义 /现代 化 /建设 /作出 /了 /重要 /贡献 /。/.@ 

”新 /的 /一 /年 /; ae ees Rae Cee /战线 /， ee E OREN /不 / 断 /为 /事业 /发 展 /凝聚 /人 心 /、/ 增 添 /力量 /. m 

2 4 Ud 

39 ”要 /加 强 /协商 /民主 /制度 /建设 /，/ 为 /各 /党 派 /团体 /和 /各 族 /各 界 /人 士 /搭建 /协商 /平台 /、 FE /创造 /民主 /氛围 /，/ 为 /我 国 /社会 主义 /民主 /政治 /发 展 /注入 /新 /的 /活力 /. / 国 


Normal text file 


SS a St roe 


表 1 生成 式 自动 摘要 模型 
模型 


参数 设置 
参数 设置 
hidden_dim = 512 
emb_dim = 256 
batch_size = 200 
max_enc_steps = 100 


max_dec_steps = 20 
beam size = 4 


ub 


成 式 自动 摘要 模型 


min_dec_steps =3 
vocab_ size = 40000 
rand_unif init mag = 0.02 
trunc_norm_init_std = le-4 
eps = le-12 
max_iterations = 5000000 


4.3 实验 流程 

本 研究 主要 分 为 两 个 部 分 : 面向 人 民 日 报 
语 料 的 新 闻 抽 取 式 自动 摘要 算法 ( 以 下 简称 “ 抽 
取 式 自动 摘要 算法 ”) 研究 ， 以 及 面向 人 民 日 
报 语 料 的 新 闻 生 成 式 自动 摘要 模型 ( 以 下 简称 
“生成 式 自动 摘要 模型 ” ) 构建 。 

在 抽取 式 自动 摘要 算法 实验 中 ， 主 要 包 
括 以 下 8 个 步骤 : 四 人 民 日 报 分 词语 料 获 取 ; 
@) 待 摘要 文本 预 处 理 : 包括 去 除 特殊 字符 和 空 

格 空 行 等 ;@@ 去 停 用 词 和 词 频 统计 : 由 于 本 研 
a a 


length : 5,731 lines :31 Ln:1 Col:1 Sel:0|0 中 "加 电 因 高 曾 简 器 


图 4 单 篇 新 闻 截 图 示例 


因此 ， 不 需要 进行 分 词 处 理 ， 在 去 停 用 词 后 直 
接 进行 词 频 统计 即 可 ; @ 计 算 句 子 权 重 : 参考 
特征 包括 标题 关键 词 信 息 、 句 子 长 度 等 特征 ; 
名 根据 权重 对 句子 进行 排序 ;人 @ 选 定 合适 的 效 
值 提取 摘要 句 ; @O 生 成 摘要 ; @ 根 据 标准 摘要 
对 自动 摘要 进行 评价 (评价 指标 包括 Rouge-1、 
Rouge-2 和 Rouge-L ) 。 
生成 式 自动 摘要 模型 构建 过 程 主要 包括 以 
下 7 个 步骤 : OAR Dff 
摘要 文本 预 处 理 : 去 除 特殊 字符 和 空格 空 行 等 ， 
并 根据 模型 要 求 调 整训 ， 
模型 构建 : 将 步骤 四 中 的 语 料 进行 预 训练 ， 得 
到 具有 《人 民 日 报 》 特 色 的 预 训练 模型 ， 人 加 
入 特征 : 根据 NEPD 分 词语 料 统计 关键 词 ， 
并 作为 自 定义 词 表 引入 到 模型 训练 中 ， 同 时 加 
入 标题 特征 ; 久生 成 式 自 动 摘要 模型 训练 : 根 
据 训练 过 程 及 结果 调整 参数 并 进行 迭代 训练 ; 
人 @@ 根 据 最 终 模型 生成 摘要 ; (根据 标准 摘要 对 
自动 摘要 进行 评价 (评价 指标 包括 Rouge-1、 
Rouge-2 和 Rouge-L ) o 


合 实 验 结果 评价 与 分 析 
由 于 目前 尚 无 针对 人 民 日 报 语 料 的 摘要 标 


457 


202310.00635v1 


chinaXiv 


知识 管理 论坛 
2022 年 第 4 期 (总 第 40 期 ) 


<= 
准 语料库 ， 因 此 ， 笔 者 在 对 自动 摘要 实验 结果 
进行 评价 时 ， 分 别 以 关键 词 词 频 抽取 式 自 动 摘 
要 结果 和 百度 智能 云 的 新 闻 摘 要 接口 的 分 析 结 
果 作 为 标准 摘要 集合 。 百 度 智能 云 的 新 闻 摘 要 
是 基于 深度 语义 分 析 模 型 自动 抽取 文本 ， 能 够 
根据 文本 中 的 关键 信息 进一步 生成 指定 长 度 的 
新 闻 摘要 1。 

以 本 文选 取 的 人 民 日 报 语 料 为 例 : 

标准 摘要 ( 关键 词 词 频 抽取 式 自动 摘要 ) : 

“Beit EX ERRIAN, FARR 
Xf— ME A ei EX, FARES AIRBAG 
Wo FEA AIEEE DA HH BERT RBMER , BG 
F (KARE) REAN, TENG ARE 
REW, FRA SHAN EM, BP OG 
FED, ACB IA SE LE GES ILE, HE BEM ZE 
5—THA EMH.” 

自动 摘要 ( 面向 人 民 日 报 语 料 的 抽取 式 自 
动 摘 要 ) : 

“P Fi] FE BA AE E eB DA AL GE I BRA EE 
RG — HE ELH HE, FDA AUER BA HSE 
BIT RBMES, EGET (KARE) WR A 
FUEN, EMER RA MES, HESITE 5 
FIKEN BPN EMME EME Ott SE 
SSE, HERA —BE LEM AH” 

标准 摘要 ( 百度 智能 云 新 闻 摘要 ) : 

“PeHest, LET TA H UAT AF AI F 
WIA, ASH exe, AAT RA 
EBA. REZSIT, “GHA BRS? 
EEUE BIA, FPL PAGER RB TG. H 
ERLE eg 15 Ze, RRL XT FIA 
IPERI ERMC, ET MAR EHTS LE 
MERGER. TEFEN THT TCR KR ERY 
MERGER, REP DIF IMATE.” 

自动 摘要 ( 面向 人 民 日 报 语 料 的 生成 式 自 
动 摘 要 ) : 

EIKIN EIRE WIEPIE OAT RLS 
PPD ae BAT ZG HIS RAF KIERSI ” 
5.1 评价 指标 


Rouge(recall-oriented understudy for gisting 
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evaluation) 是 评估 自动 摘要 、 机 器 翻译 等 自然 语 
言 处 理 任 务 的 常用 指标 ， 它 是 将 标准 摘要 和 自 
动 生 成 摘要 进行 相似 度 计算 ， 得 到 的 数值 即 为 
PEER, AAMT OY: 

>, Count paten (gram, ) 


= J by Count(gram, ) 
公式 (2) 
其 中 ， 分 母 为 mgram 个 数 ， 分 子 为 标准 
摘要 和 自动 摘要 共有 的 n-gram 个 数 。 例 如 ， 
Rouge-1 中 的 分 子 是 自动 摘要 和 标准 摘要 中 
均 出 现 的 1-gram 的 个 数 ， 分 子 是 标准 摘要 的 
1-gram 个 数 。 笔 者 选取 的 评价 指标 为 Rouge-1、 
Rouge-2 和 Rouge-L，Rouge-L 是 指 运 用 LCS 
( longest common subsequence, 最 长 公共 子 序列 ) 
计算 的 Rouge 评测 指标 ， 计 算 公 式 分 别 为 : 


Rouge- N= 


Se{Re feremceSummaries } 


p -IOT 
om 公式 〈3 ) 
p s TOY) 
~“ n 公式 (4) 
= (1 十 PB RP,, 
i Rs + B ga 公式 ( 5 ) 


其 中 , LOS(X,Y) Æ X 和 YY 的 最 长 公共 子 序 
列 的 长 度 ，m 和 n 分 别 表示 标准 摘要 和 自动 摘 
要 的 长 度 (通常 为 词语 个 数 ) ，Ris 和 Pi, 分别 
表示 召回 率 和 准确 率 。B 的 数值 通常 较 大 ， 导 致 
Rouge-L 几乎 只 考虑 召回 率 Rs， 这 与 Rouge-N 
相同 。 

此 外 ， 上 述 3 种 Rouge 评测 指标 内 部 运用 
的 P、R、F 为 准确 率 ( Precision )、 召 回 率 ( Recall )、 
F 值 (F-Measure ) 。 具 体 计算 公式 分 贝 如 下 : 
准确 率 P = 


正确 识别 的 句 对 
正确 识别 的 句 对 + 被 错误 识别 的 句 对 
公式 (6) 


x100% 


| 
I 


率 R- 


正确 识别 的 名 对 ives 

正确 识别 的 句 对 + 未 被 识别 的 句 对 "公式 (7) 

_2xPxR 
P+R 


调和 平均 值 


x100% 


公式 (8) 
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5.2 实验 结果 


在 抽取 式 自动 摘要 实验 中 ， 本 研究 分 别 通 
过 词 频 和 篮 聚 类 抽取 关键 词 的 方式 对 句子 进行 
打分 ， 并 按 分 数 对 句子 进行 排序 ， 进 而 抽取 出 


ZU 


1 
2 1 
3 | 0.541666667 
4 0.950819672 
5 1 
6 | 0.813953488 
7 1 
8  0.864197531 
9  0.931623932 
10 1 
11 | 0.722689076 
12 1 
13 1 
4 | 0.734693878 
5 1 
6 1 
7 0.6625 
18 1 
19 1 
20 0.708860759 
21 1 
22 1 
23 ， 0.413461538 
24 1 
25 0.568 
26 0.884210526 
27 1 
28 1 
29 0.714285714 
30 1 


0.57337884 

1 

1 

1 

1 
0.765957447 
1 
0.887755102 


0.634146341 
1 
0.781954887 
1 
1 
1 
0.519230769 
1 
0.356020942 


0.999999995 
0.702702698 
0.974789911 
0.728850321 
0.897435892 
0.999999995 
0.927152313 
0.964601765 
0.867469875 
0.839024385 
0.940540536 
0.999999995 
0.847058819 
0.873239432 
0.892703858 
0.796992476 
0.633333329 
0.999999995 
0.829629625 
0.999999995 
0.776119398 
0.585034009 
0.877637126 
0.724489791 
0.938547481 
0.999999995 
0.683544299 
0.833333328 
0.525096521 


0.491525424 
0.917808219 
1 
0.765822785 
1 
0.81512605 
0.871794872 
1 
0.685185185 


0.346405229 
i 
0.490291262 
0.84057971 

1 

1 
0.646666667 
0.994736842 


相应 的 摘要 结果 。 将 词 频 抽取 式 自 动 摘要 结果 
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TE Fa tn MEE, ORR SRS TH At A nF EE A 
自动 摘要 结果 并 与 标准 摘要 进行 Rouge 评测 ， 
部 分 摘要 结果 截图 如 图 5 所 示 : 


0.719745223 
0.991071429 
0.85620915 

1 

1 
0.708661417 
0.775956284 
1 
0.374732334 
1 

1 

1 
0.607526882 
1 
0.74611399 
1 

1 

1 
0.477941176 
1 
0.278350515 


0.999999995 
0.659090905 
0.957142852 
0.702508956 
0.867383508 
0.999999995 
0.898148143 
0.931506844 
0.837037032 
0.810218973 
0.922535206 
0.999999995 
0.819819815 
0.829493083 
0.873846149 
0.745562126 
0.545171336 
0.999999995 

0.75428571 
0.999999995 
0.755852838 
0.514563103 
0.854599402 
0.657980452 
0.913385822 
0.999999995 
0.646766165 
0.785425096 
0.434982735 


5 自动 摘要 实验 结果 示例 


全 部 自动 摘要 的 综合 评测 结果 见 表 2。 通 
过 表 2 可 以 看 出 ， 整 体 上 抽取 式 自 动 摘 要 实验 
结果 抽取 效果 良好 (均值 : Rouge-1=0.8447， 
Rouge-2=0.8257, Rouge-L=0.8446 ) ， 能 够 对 原 
台 语 料 进 行 大 致 概括 。 由 于 在 抽取 式 自 动 摘 要 
实验 中 ， 标 准 摘要 同样 为 自动 生成 ， 且 在 Rouge 


1 
0.541666667 
0.950819672 

1 
0.813953488 

1 
0.864197531 
0.931623932 

1 
0.722689076 

1 

1 
0.734693878 


0.413461538 
1 

0.568 
0.884210526 
1 

1 
0.714285714 
1 


1 
1 
0.57337884 


1 
1 
1 
0.765957447 
1 
0.887755102 


0.634146341 
1 
0.781954887 
1 
1 
1 
0.519230769 
1 
0.356020942 


0.999999995 
0.702702698 
0.974789911 
0.728850321 
0.897435892 
0.999999995 
0.927152313 
0.964601765 
0.867469875 
0.839024385 
0.940540536 
0.999999995 
0.847058819 
0.873239432 
0.892703858 
0.796992476 
0.633333329 
0.999999995 
0.829629625 
0.999999995 
0.776119398 
0.585034009 
0.877637126 
0.724489791 
0.938547481 
0.999999995 
0.683544299 
0.833333328 
0.525096521 


指标 计算 相似 度 的 过 程 中 ,一 旦 抽取 出 的 语句 
与 标准 摘要 不 同 ， 则 两 个 对 应 的 完整 长 句 相 似 
度 将 会 极 低 ， 这 可 能 会 导致 Rouge 指标 明显 偏 
低 的 问题 出 现 。 因 此 ， 笔 者 将 会 在 未 来 的 研究 
中 一 方面 调整 标准 摘要 的 准确 度 ， 另 一 方面 完 
善 和 月 动 摘 要 的 评价 方法 。 


表 2 抽取 式 自动 摘要 实验 评测 结 


、 村 Rouge-1 Rouge-2 Rouge-L 
评价 指标 
P/% R/% F/% P/% R/% F/% P/% R/% F/% 
201501 88.55 88.69 85.17 86.59 87.13 82.33 88.54 88.69 85.16 
201506 90.48 75.66 76.23 88.85 73.05 72.32 90.44 75.64 76.20 
201601 87.69 89.06 84.82 85.65 87.52 81.92 87.69 89.05 84.81 
均值 88.91 84.47 82.07 87.03 82.57 78.86 88.89 84.46 82.06 
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在 生成 式 自动 摘要 实验 中 ， 本 人 研究 将 全 部 
新 闻 语 料 进行 预 处 理 ， 接 入 百度 智能 云 新 闻 摘 
要 接口 ， 获 取 相 应 的 自动 摘要 结果 ， 由 于 该 平 
台 输 入 文本 长 度 有 限 , 因此 , 笔者 经 过 代码 筛选 ， 
共 获 得 7 967 条 符合 文本 长 度 限 制 的 新 闻 文 本 。 
另外 ， 由 于 本 文 拟 构建 的 指针 生成 网 络 模型 需 
要 大 规模 训练 语 料 ， 遂 将 2015 年 1 月 、2015 年 
6 月 和 2016 年 1 月 3 个 月 的 原始 语 料 合 并 后 再 
继续 进行 实验 。 


ChinaXiv 合 作 期 刊 


对 语 料 进行 预 处 理 后 ， 将 原始 文本 和 标准 
摘要 ( 百度 智能 云 生 成 摘要 ) 匹配 并 输入 指针 
生成 网 络 模型 中 进行 训练 和 测试 。 笔 者 在 模型 
训练 过 程 中 引入 了 自 定 义 词 表 ， 该 词 表 由 NEPD 
分 词语 料 生 成 ， 能 够 提高 自动 摘要 模型 的 训练 
效果 ， 以 及 生成 摘要 的 流畅 度 和 贴 合 度 。 在 结 
果 评 价 阶段 ， 笔 者 在 生成 式 自动 摘要 实验 中 采 
用 的 同样 是 Rouge 指标 进行 评价 ， 评 测 结 果 如 
表 3 TAN: 


表 3 生成 式 自动 摘要 实验 评测 结 


模型 Rouge-1/% Rouge-2/% Rouge-L/% 
0005000 26.06 14.99 24.46 
0010000 26.10 15.05 24.47 
0015000 26.05 15.46 24.51 
0020000 22.47 12.15 20.91 
0025000 3.82 0.10 3.68 
0030000 3.83 0.09 3.67 
0035000 3.82 0.09 3.67 
0040000 3.82 0.06 3.67 


以 本 研究 生成 结果 的 其 中 一 组 数据 为 例 ( 见 
表 4) ,不 同 算法 或 模型 生成 的 摘要 内 容 有 一 
定 的 差别 ， 但 总 体 上 流畅 度 问题 较 小 ， 可 读 性 
有 一 定 的 差别 。 抽 取 式 自动 摘要 由 于 单 句 抽取 
自 人 民 日 报 原文 ， 因 此 句子 内 部 可 读 性 高 于 生 
成 式 摘要 ， 句 间 连 贯 性 低 于 生成 式 摘要 。 从 摘 
要 内 容 整 体 上 看 ， 抽 取 式 摘要 包含 的 内 容 更 丰 
富 ， 但 概括 能 力 较 差 ， 内 容 宛 余 ， 句 子 间 关联 
度 较 低 ; 而 生成 式 自 动 摘 要 有 一 定 的 语义 理解 
能 力 ， 生 成 的 摘要 内 容 更 简练 ， 相 对 比较 符合 
新 闻 摘要 的 特征 ， 对 原始 语 料 的 总 结 更 灵活 ， 


度 上 反映 词 序 和 摘要 效果 ， 但 该 指标 区 分 度 不 
高 ， 特 别 是 Rouge-N 中 N>3 时 ， 指 标 数值 通 
常 较 小 5 , 对 结果 评价 有 较 大 影响 。 除 此 之 外 ， 
Rouge 指标 主要 是 根据 文本 相似 度 对 标准 摘要 
和 自动 摘要 进行 对 比 ， 同 时 ， 它 具有 一 定 的 
奖励 机 制 ， 会 给 予 原始 表达 ( 词汇 ) 更 高 的 
分 数 中 ， 这 就 导致 在 同一 篇 新 闻 中 ， 通 常 抽 
取 式 自动 摘要 的 分 数 会 高 于 生成 式 自动 摘要 。 
因此 ， 这 种 计算 方式 有 一 定 的 局 限 性 ， 特 别 
是 对 于 生成 式 自动 摘要 而 言 更 是 如 此 。 笔 者 将 
在 后 续 研究 中 尝试 多 种 评价 方式 对 实验 结果 进 


但 会 出 现 个 别 词汇 重复 、 摘 要 内 容 不 全 面 等 问 
题 。 

本 研究 选用 的 评测 指标 为 Rouge 指标 ， 
这 种 评价 方式 虽然 直观 简洁 并 且 能 够 在 一 定 程 
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行 综合 测评 ， 主 要 包括 人 工 生成 摘要 数据 ， 将 
其 作为 标准 摘要 数据 集 ， 或 通过 对 生成 的 自动 
摘要 人 工 打 分 的 方式 进行 评价 ， 以 求 得 到 更 准 
确 的 评价 结 
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表 4 面向 《人 民 日 报 》 的 新 闻 自 动 摘要 生成 结果 样 例 


文本 内 容 


原始 语 料 


抽取 式 
标准 摘要 


抽取 式 
自动 摘要 


生成 式 
标准 摘要 


生成 式 
自动 摘要 


世界 经 济 论坛 将 日 益 成 为 连接 中 国 与 世界 的 桥梁 ,成 为 增进 世界 对 


支持 的 重要 平台 每 年 1 月 ， 全 球 目光 聚 


中 国 发 展 道路 了 解 、 认 同 与 


焦 瑞 士 东 部 小 镇 达 沃 斯 一 一 来 自 世 界 各 地 的 政 、 商 、 学 界 


人 士 群 质 毕 至 、 济 济 一 党 ， 共 商 天 下 大 事 。 即 将 于 1 月 21 日 至 24 日 召开 的 第 四 十 五 届 志 界 经 济 论 


坛 2015 年 年 会 将 是 盛况 空前 ， 近 50 位 国家 元 首 和 政府 首脑 将 出 席 ,， 来 自 140 多 个 国家 的 2500 多 位 


各 界 精 英 ， 将 就 世界 面临 的 政治 、 
“全 球 新 局 势 ”。 当 今世 界 正经 历 深 刻 复杂 变化 ， 
力量 对 比 深刻 变化 ， 各 种 新 机 遇 新 扫 


主题 是 


授 的 话说 ， 


经 济 、 社 会 、 科 技 等 问题 探讨 应 


对 之 道 。 今 年 达 沃 斯 年 会 的 


国际 体系 


和 国际 秩序 深度 调整 ， 国 际 


k 战 层出不穷 。 用 世界 经 济 论坛 创立 者 、 执 行 主席 施 瓦 布 教 
“世界 正 处 在 一 个 十 字 路 口 ，2015 年 将 是 决定 未 来 命运 的 关键 之 年 ”。 值 此 之 际 ， 


人 们 都 想 知 道 ， 中 国 对 当前 的 “全 球 新 局 势 ” 有 何 真知 灼 见 ， 有 何 治理 良 方 ， 中 国会 采取 什么 
样 的 应 对 之 道 。 人 们 还 想 知 道 ， 作 为 世界 第 二 大 经 济 体 的 中 国 ， 经 


将 为 世界 提供 更 多 机 遇 。 中 国 推动 建立 以 合作 共 启 为 核心 的 新 型 国 


受益 。 中 国 的 发 展 需 要 一 个 和 平稳 定 的 世界 ， 中 国 的 发 展 也 必定 促进 世界 的 和 平 与 稳定 。 中 国 


与 世界 经 济 论坛 的 渊源 可 谓 久 远 ， 早 在 改革 开放 之 初 ， 中 国 就 与 论坛 建立 了 合作 关系 。 上 世纪 


济 发 展 前 景 如 何 ， 在 推 
际 经 济 合作 上 将 发 挥 什么 样 的 作用 。 年 会 上 的 中 国 声音 ， 必 将 增强 国际 社会 对 中 国 发 展 的 信 
心 ， 也 会 增强 对 世界 经 济 前 景 的 信心 。 中 国 通过 全 面 深化 改革 ， 推 


: 动 国 


动 经 济 社会 持续 健康 发 展 ， 
际 关 系 ， 必 将 使 全 世界 从 中 


90 年 代 初 以 来 ， 中 国 的 多 位 国家 领导 人 曾 出 席 达 沃 斯 
新 领军 者 年 会 ， 又 称 夏季 达 沃 斯 年 会 ， 与 冬季 达 沃 斯 年 会 


A 
Bo 


每 年 9 月 
蒂 相 映 


次 参加 冬季 和 夏季 达 沃 斯 年 会 ， 还 参与 过 夏季 达 沃 斯 年 会 


世界 经 济 论坛 在 中 国 召开 的 
、 相 得 益 朝 。 我 本 人 有 过 多 


的 筹 组 工作 。 我 与 施 瓦 布 教授 相识 多 


年 ， 结 下 了 深厚 的 友谊 。 去 年 初 ， 我 抵 日 内 瓦 履 新 ， 他 是 邀 我 餐 叙 的 第 一 个 外 国人 。 施 瓦 布 教 


授 曾 多 次 邀 我 商讨 如 何 筹 备 今年 的 论坛 年 会 ， 
当前 中 方 与 世界 经 济 论坛 合作 势头 
将 日 益 成 为 连接 中 国 与 世界 的 桥梁 ， 


还 与 我 探讨 如 何 进 一 步 深化 论坛 与 中 方 的 合作 。 
良好 ， 相 信 将 来 扩大 合作 的 前 景 十 分 广阔 。 世 界 经 济 论坛 


合 。 当 下 ， 达 沃 斯 小 镇 银 装 素 里 ， 
(作者 为 中 国 常 驻 联合 
作为 世界 第 二 大 经 
日 。 中 国 与 世界 经 


的 中 国 声音 充满 期 待 。 
人 们 还 想 知道 ， 
发 挥 什么 样 的 作用 


冬季 达 沃 斯 年 会 并 带 相 映 、 相 得 益 彰 。 


国际 媒体 已 开始 将 镜头 聚焦 小 镇 


济 体 的 中 国 ， 经 济 发 展 前 景 如 何 


成 为 增进 世界 对 中 国 发 展 道路 ] 


解 、 认 同 与 支持 的 重要 平 
， 世 界 对 即将 在 达 沃 斯 发 出 


国 日 内 瓦 办 事 处 和 瑞士 其 他 国际 组 织 代表 吴 海 龙 ) 


， 在 推动 国际 经 济 合作 上 将 


济 论坛 的 渊源 可 谓 和 久远 ， 早 在 改革 开放 之 初 ， 中 国 就 与 论坛 
建立 了 合作 关系 。 每 年 9 月 世界 经 济 论坛 在 中 国 召 开 的 新 领军 者 年 会 ， 又 称 夏 季 达 沃 斯 年 会 ， 与 


合作 的 前 景 


世界 经 济 论坛 将 日 益 成 为 连接 中 


支持 的 重要 平台 每 年 1 月 ， 全 球 目光 聚焦 瑞 ] 


与 世界 的 桥梁 ， 


当前 中 方 与 世界 经 济 论坛 合作 势头 良好 ， 相 信 将 来 扩大 
分 广阔 。 世 界 经 济 论坛 将 日 益 成 为 连接 中 国 与 世界 的 书 
发 展 道路 了 解 、 认 同 与 支持 的 重要 平台 。 


梁 ， 成 为 增进 世界 对 中 国 


成 为 增进 世界 对 


中 国 发 展 道路 了 解 、 认 同 与 


EF 东 部 小 镇 达 沃 斯 一 一 来 自 世 界 各 地 的 政 、 商 、 学 


界 人 士 群 质 毕 至 、 济 济 一 党， 共 商 天 下 大 事 。 当 今世 界 正 经 历次 刻 


秩序 深度 调整 ， 


对 世界 经 济 前 景 的 信心 。 中 国 通 
ALIA. PEH 


的 信心 ， 


国际 力量 对 比 次 刻 变 化 ， 各 种 新 机 遇 新 所 
道 ， 中 国 对 当前 的 “全 球 新 局 势 ” 
道 。 人 们 还 想 知道 ， 作 为 世界 第 二 大 经 济 体 的 中 国 ， 
上 将 发 挥 什么 样 的 作用 。 年 会 上 的 中 国 声音 ， 必 将 增强 国际 社会 对 
过 全 面 深化 改革 
FE 动 建立 以 合作 共 


今年 达 沃 斯 年 会 的 主题 是 “全 球 新 


有 何 真知 灼 见 ， 有 何 治理 良 方 ， 


席 达 沃 斯 年 会 。 每 年 9 月 世界 经 济 论坛 在 中 国 召 开 的 新 领军 者 年 会 ， 


季 达 沃 斯 年 会 并 带 相映 、 相 得 益 彭 。 


当下 ， 达 沃 斯 小 镇 银 装 素 庄 ， 


小 镇 ， 世 界 对 即将 在 达 沃 斯 发 出 的 中 国 声音 充满 期 待 。 
世界 经 济 论坛 将 日 益 成 为 连接 中 国 与 与 世界 的 桥梁 增进 世界 对 中 国 的 认可 。 


复杂 变化 ， 国 际 体 系 和 国际 
k 战 层出不穷 。 值 此 之 际 ， 人 们 都 想 知 


中 国会 采取 什么 样 的 应 对 之 


经 济 发 展 前 景 如 何 ， 在 推动 国际 经 济 合作 


中 国 发 展 的 信心 ， 也 会 增强 


， 推 动 经 济 社会 持续 健康 发 展 ， 将 为 世界 提供 
说 为 核心 的 新 型 国际 关系 ， 必 将 使 全 世界 从 中 受益 。 

局 势 ”。 年 会 上 的 中 国 声 音 ， 必 将 增强 国际 社会 对 中 国 发 展 
也 会 增强 对 世界 经 济 前 景 的 信心 。 上 世纪 90 年 代 初 以 来 ， 


中 国 的 多 位 国家 领导 人 曾 出 
又 称 夏季 达 沃 斯 年 会 ， 与 冬 
国际 媒体 已 开始 将 镜头 聚焦 
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自动 摘要 是 将 长 文本 提炼 为 简洁 精炼 的 短 
文本 的 过 程 ， 能 够 帮助 人 们 快速 浏览 文本 资源 
并 知晓 文章 大 意 ， 节 省 阅读 成 本 的 同时 ， 也 提 
高 了 知识 利用 效率 ， 特 别 是 在 信息 资源 日 益 庞 
大 的 当下 , 自动 摘要 技术 的 需求 更 是 与 日 俱 增 。 
笔者 以 NEPD 中 2015 年 1 月 、2015 年 6 月 和 
2016 年 1 月 3 个 月 的 人 民 日 报 分 词语 料 作 为 实 
验 语 料 ， 根 据 新 闻 文本 特征 ， 面 向 人 民 日 报 语 
料 设计 了 基于 关键 词 词 频 排序 和 关键 词 复 排 序 
的 抽取 式 自 动 摘 要 算法 ， 并 构建 了 基于 指针 生 
成 网 络 的 生成 式 自动 摘要 模型 ， 均 在 Rouge 测 
评 中 取得 了 良好 的 实验 结果 ， 生 成 的 摘要 结果 
具有 较 好 的 完整 性 。 笔 者 将 在 接 下 来 的 研究 中 
完善 算法 ， 改 进 模型 ， 增 强 模型 的 复 用 性 ， 并 
对 评价 方法 做 出 改进 ， 加 入 文本 内 外 部 多 个 特 
征 ， 增 加 人 工 生 成 标准 摘要 数据 集 和 人 工 打 分 
的 环节 ， 以 提高 自动 摘要 的 流畅 性 和 可 读 性 。 
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Automatic Summary Generation of News for People’s Daily Online Corpus 
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Abstract: [Purpose/significance] This paper conducts a study for the mainstream news media for 
People’s Daily Online corpus, aiming to provide ideas and practical support for the study of automatic 
text summarization, which can then be applied to news and other related text information processing, and 
contribute to knowledge aggregation services and information access research. [Method/process] The 
experimental corpus of this research was the sub-corpus of the People’s Daily Online in January 2015, 
June 2015 and January 2016 in the new era People’s Daily (NEPD). Based on TF-IDF, Textrank and other 
extractive automatic summarization algorithms, based on the generative automatic abstractive summarization 
model for the pointer-generator network, the research was carried out and analyzed and evaluated the 
summarization results. [Result/conclusion] The experiment builds a news extraction automatic abstractive 
algorithm the Pointer-Generator Networks model for the People’s Daily corpus, and constructs a network 
model of news generative automatic summary pointer generation for People’s Daily Online corpus. Fruitful 
experimental results are evaluated by Rouge indicator (including 3 indicators: Rouge-1, Rouge-2 and 
Rouge-L). This article provides corpus support and practical support for the automatic news summarization 
system. 

Keywords: People’s Daily extractive automatic summarization generative automatic summarization 


NEPD pointer-generator networks 


